heise+ | So funktioniert KV-Cache-Quantisierung mit Googles Verfahren TurboQuant

Large Language Models (LLMs) erfordern nicht nur im Training, sondern auch im täglichen Betrieb erhebliche Hardwareressourcen. Dazu zählt neben der puren Rechenleistung für die Matrixoperationen im neuronalen Netz auch der Grafikspeicher (VRAM), da fast ausschließlich Hochleistungsgrafikkarten schnell genug für einen flüssigen Betrieb sind. Da in jedem Durchgang im LLM nur ein neues Token (ein kurzes Wort oder ein Teil eines längeren Wortes) generiert wird, ändert sich an den durchzuführenden Berechnungen von einem zum nächsten Durchgang nur das eine Token. Daher lässt sich ein Großteil der Rechenergebnisse wiederverwenden, was Speicher spart. Das ist die Aufgabe des KV-Cache.

In Zeiten der Speicherpreisexplosion ist man gleich doppelt dankbar, wenn neue Softwaretechniken helfen, Speicher zu sparen. Das ermöglicht den Betrieb leistungsfähigerer Modelle oder größere Kontextlängen, sodass die LLMs längere Dokumente oder größere Codebasen verarbeiten können.

Schon länger werden daher quantisierte Modellgewichte eingesetzt, um VRAM-Speicherplatz zu sparen. Insbesondere hier ist der KV-Cache schnell der größte Platzfresser, weil er nicht automatisch mitquantisiert wird. Den KV-Cache ebenfalls stärker zu quantisieren ist das Bestreben vieler KI-Forscher, zuletzt hat das Verfahren TurboQuant von Google viel Aufmerksamkeit erhalten.

heise+ | So funktioniert KV-Cache-Quantisierung mit Googles Verfahren TurboQuant

Das starke Verkleinern des KV-Cache zum Sparen von Speicherplatz war bisher eher exotisch. Ein Beitrag von Google hat das Thema nun in den Mainstream gerückt.